## 'data.frame': 8557694 obs. of 8 variables:
## $ Kraj : Factor w/ 83 levels "Albania","United Arab Emirates",..: 4 4 4 4 4 4 4 4 4 4 ...
## $ Szkola : num 3600001 3600001 3600001 3600002 3600003 ...
## $ Student: num 3601769 3605983 3602143 3611016 3605314 ...
## $ Zestaw : chr "31" "85" "36" "37" ...
## $ Czas : num 195552 143354 206815 117352 174955 ...
## $ Zadanie: chr "R219Q01" "R219Q01" "R219Q01" "R219Q01" ...
## $ Pozycja: num 3 2 4 1 4 2 4 1 2 3 ...
## $ Obszar : chr "R" "R" "R" "R" ...
## [1] "Kraj" "Szkola" "Student" "Zestaw" "Czas" "Zadanie" "Pozycja"
## [8] "Obszar"
Mamy do dyspozcji 8.5 mln obserwacji opisanych przez 8 wypisanych wyżej wartości.Dane zawierają informacje opisujące czas wykonywania zadań przez uczniów z 58 krajów.
## Ogólne informacje:
## 63 Liczba różnych zestawów
## 182 Liczba zadań
## 58 Liczba krajów
## 355733 Liczba studentów
## 15279 Liczba szkół
summary((data$Czas)/1000/60)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.0024 0.5973 1.1170 1.4510 1.8980 734.0000
Gdy wyrazimy czas w minutach widać, że na niektóre z zadań przeznaczono dużo więcej niż regulaminowe 2-godziny niezbędne na wykonanie testu (Max>120). Musimy pozbyć się takich danych.
## [1] 227
Ponad 227 z ok.356 tys. uczniów przeznaczyło więcej niż 2 godziny na wykonywanie testu zgodnie z przedstawionymi danymi. Ze względu na dużą ilość danych pozbędziemy się “nieprzepisowych”. Usuwamy również obserwacje, dla których Pozycja przyjmuje wartość -1, gdyż świadczy to o błędnym wprowadzeniu danych. Upewniliśmy się również czy w zbiorze obserwacji nie występują luki w danych - tzn. “NA, gdyż konieczne byłoby ich zastąpienie.
Korzystając z funkcji boxplot.stats udało nam się zlokalizować ok 400 tys. obserwacji odstających. Dane bez odstających obserwacji oznaczamy przez data2. Uwzględnimy je w dalszej analizie , jednak nie chcemy ich na razie usuwać gdyż mogą być istotne przy porównywaniu krajów.
Jak widzimy na wykresie poniżej zadania z części matematycznej i czytania są wykazane w podobnej wielkości obserwacji.
summary((dataM$Czas)/60000)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00263 0.77740 1.28700 1.62800 2.06800 84.69000
Zadanie z czytania:
summary((dataR$Czas)/60000)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00245 0.47990 0.95340 1.29900 1.73800 85.47000
Powyżej prezentujemy podstawowe statystyki czasu przeznaczonego na zadanie w każdym z obszarów.
Dodatkowo porównajmy histogramy czasów rozwiązywania zadania z matematyki oraz czytania, które prezentujemy poniżej.
Gdy porównamy histogramy czasów wykonywania zadań z obu obszaróW, widzimy, że zadania z matematyki były rozwiązywane dłużej.
Jak widzimy na wykresie poniżej zadania z wszystkich części tetsu są wykazane w podobnej wielkości obserwacji.
## [1] "Pozycja 1:"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00305 0.72250 1.32800 1.71800 2.24800 85.47000
## [1] "Pozycja 2:"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00245 0.58430 1.08600 1.37400 1.81100 84.69000
## [1] "Pozycja 3:"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00263 0.60100 1.10600 1.43400 1.87600 79.84000
## [1] "Pozycja 4:"
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 0.00285 0.50760 0.97380 1.26200 1.66100 72.94000
Rozkład łącznego czasu przeznaczonego na każdą z części pokazują poniższe boxploty.
Boxploty przedstawiają rozkład czasu przeznaczonego na każdą z części testu (wyrażony w minutach). Pierwsza część testu wykonywana jest najdłużej , natomiast najkrócej studenci rozwiązują zadania z częsci czwartej.
Badane kraje prezentują się w następujących częsciach obserwacji:
Następny wykres pokazuje średnie czasy wykonywania zadań w każdej z kolejnych części testów w rozróżnieniu na kraje.